Sinh thống kê trong nghiên cứu lâm sàng
1 Giới thiệu về thống kê trong nghiên cứu lâm sàng
Hình 1 giới thiệu tóm tắt chu trình thông thường khi thực hiện một nghiên cứu lâm sàng nói chung. Khởi đầu từ một vấn đề nghiên cứu, nhà nghiên cứu đặt ra một câu hỏi nghiên cứu cụ thể (thường theo cấu trúc PICO), trong đó xác định rõ dân số nghiên cứu đích (Population), can thiệp/yếu tố phơi nhiễm (Intervention/Exposure), nhóm chứng/nhóm so sánh (Comparison/Control), và kết cuộc quan tâm (Outcome). Để trả lời cho câu hỏi nghiên cứu này, nhà nghiên cứu sẽ thiết kế nghiên cứu, trong đó dân số nghiên cứu đích được cụ thể hoá bằng dân số chọn mẫu, và các yếu tố quan tâm được cụ thể hoá bằng các biến số nghiên cứu được định nghĩa rõ ràng. Với thiết kế này, nhà nghiên cứu sẽ tiến hành nghiên cứu, từ đó có được mẫu nghiên cứu thực tế, với dữ liệu thực tế thu thập được từ mẫu nghiên cứu. Từ mẫu nghiên cứu cụ thể này, nhà nghiên cứu sẽ phân tích dữ liệu để có được kết quả phân tích trong mẫu nghiên cứu, rồi từ đó suy diễn cho câu hỏi nghiên cứu trong mẫu nghiên cứu và câu hỏi nghiên cứu trong dân số đích ban đầu. Sự phù hợp giữa nghiên cứu thực tế với thiết kế nghiên cứu thể hiện giá trị bên trong của nghiên cứu; trong khi đó sự phù hợp giữa thiết kế nghiên cứu với câu hỏi nghiên cứu thể hiện giá trị bên ngoài của nghiên cứu. Cả hai loại giá trị này của nghiên cứu lâm sàng đều bị ảnh hưởng bởi sai lệch ngẫu nhiên và sai lệch hệ thống.
Trong chu trình nghiên cứu trên, mẫu nghiên cứu được lấy ra từ dân số nghiên cứu đích. Quá trình phân tích sẽ bao gồm hai giai đoạn:
Giai đoạn 1: mô tả kết quả có được trong mẫu nghiên cứu
Giai đoạn 2: suy diễn kết quả có được trong mẫu nghiên cứu cho dân số nghiên cứu đích
Sinh thống kê (biostatistics) là lĩnh vực nghiên cứu nhằm xây dựng và ứng dụng các phương pháp thống kê trong các chủ đề về sinh học và y học. Hai giai đoạn phân tích trên tương ứng với hai loại hình sinh thống kê với mục tiêu và công cụ sử dụng khác nhau:
Thống kê mô tả (descriptive biostatistics): mô tả kết quả có được trong mẫu nghiên cứu
Thống kê suy diễn (inferential biostatistics): suy diễn kết quả có được trong mẫu nghiên cứu cho dân số nghiên cứu đích
2 Thống kê mô tả
2.1 Một số khái niệm
Nghiên cứu: mẫu lấy từ dân số
Bộ dữ liệu: cấu trúc chứa các quan sát có được từ một nghiên cứu
Quan sát: giá trị của các biến số được đo lường trên một đơn vị nghiên cứu tại một thời điểm cụ thể
Biến số: đặc tính có thể thay đổi giữa các đơn vị nghiên cứu khác nhau
2.2 Cấu trúc dữ liệu
Phần lớn thời gian của giai đoạn phân tích dữ liệu trên thực tế là dành cho việc làm sạch và chuẩn bị dữ liệu ở dạng phù hợp cho việc phân tích.
Một bộ dữ liệu được xem là “gọn gàng” (tidy) khi1:
Mỗi quan sát tạo thành một dòng
Mỗi biến số tạo thành một cột
Mỗi loại quan sát tạo thành một bảng
Nếu có nhiều bảng, các bảng này được liên kết bằng một cột dữ liệu
2.3 Biến số
Có nhiều cách phân loại biến số:
- Tính chất: Định tính/Định lượng
- Vai trò: Độc lập/Phụ thuộc
Năm 1946, nhà tâm lý học Stanley Smith Stevens đưa ra cách phân loại biến số dựa theo hàm lượng thông tin trong biến số2:
- Danh định (nominal): thuộc tính đo lường: phân loại, phân nhóm (giống, khác)
- Thứ tự (ordinal): thuộc tính đo lường: so sánh, xếp thứ bậc (cao, thấp)
- Khoảng (interval): thuộc tính đo lường: chênh lệch (cộng, trừ)
- Tỉ số (ratio): thuộc tính đo lường: độ lớn (nhân, chia)
Biến số có bản chất định lượng thì hàm lượng thông tin sẽ bị mất đi khi biến biến số đó thành biến số phân nhóm. Do đó, không nên phân nhóm biến số định lượng, trừ phi có lý do/cơ sở rõ ràng cho việc phân nhóm.
Lưu ý rằng, khi dữ liệu được nhập liệu, các biến số phân nhóm thường được mã hoá bằng các con số; tuy nhiên điều này không có nghĩa rằng biến số đó là biến số định lượng.
2.4 Mô tả biến số
Trong thống kê mô tả, chúng ta sẽ mô tả sự phân bố của các biến số bằng hai loại công cụ là chỉ số thống kê mô tả và biểu đồ thống kê mô tả. Có nhiều dạng chỉ số và biểu đồ khác nhau, và việc lựa chọn chỉ số/biểu đồ phụ thuộc vào loại biến số mà chúng ta đang quan tâm.
Chỉ số thống kê mô tả
Đối với biến số dạng phân nhóm, chỉ số mô tả bao gồm:
Tần số (frequency): giá trị tuyệt đối của số đối tượng trong từng phân nhóm của biến số.
Tỉ lệ phần trăm (proportion, percentage): giá trị tương đối (tỉ lệ) của từng phân nhóm so với tổng thể.
Đối với biến số định lượng, sự phân bố của biến số cần được mô tả bằng hai thông số:
Vị trí tập trung (location): trung bình (mean), trung vị (median).
Độ phân tán (dispersion): độ lệch chuẩn (standard deviation), khoảng tứ phân vị (interquartile range), khoảng giá trị (range).
Trung bình thường được mô tả kèm với độ lệch chuẩn, trong khi đó trung vị thường được mô tả kèm với khoảng tứ phân vị.
Trung bình và độ lệch chuẩn thường được dùng khi biến số có phân bố cân xứng và không có các giá tri ngoại lai (giống với phân bố bình thường). Trung vị và khoảng tứ phân vị có thể dùng trong mọi trường hợp. Khi biến số có phân bố cân xứng, trung vị có giá trị gần bằng trung bình. Trung bình và độ lệch chuẩn bị ảnh hưởng bởi các giá trị ngoại lai, trong khi đó trung vị và khoảng tứ phân vị ít bị ảnh hưởng bởi các giá trị ngoại lai này.
Trình bày chỉ số mô tả trong bảng
Bảng thường được sử dụng khi cần thông tin chính xác về dữ liệu.
Một số nguyên tắc cần lưu ý khi trình bày bảng:
- Có tên với đầy đủ thông tin
- Có đơn vị (đối với biến số liên tục)
- Số chữ số thập phân: vừa phải, nhất quán
- Ghi chú: chữ viết tắt, khái niệm chuyên môn
- Không nên sử dụng gạch đứng, dùng gạch ngang khi cần thiết
- Sắp xếp cột và hàng theo thứ tự (độ lớn, thời gian) khi cần thiết
Biểu đồ thống kê mô tả
Đối với biến số dạng phân nhóm:
- Biểu đồ điểm (dotplot)
- Biểu đồ cột (bar chart)
Đối với biến số liên tục:
- Tổ chức đồ (histogram)/Biểu đồ mật độ (density plot)
- Biểu đồ hộp (boxplot)
- Biểu đồ dạng RDI (pirateplot)
Tổ chức đồ (histogram)
Thường dùng để mô tả phân phối của một biến số liên tục.
Giá trị của các biến số được nhóm lại vào các khoảng bằng nhau. Trục tung thể hiện tần số hoặc tỉ lệ như biểu đồ cột.
Tuy nhiên, hình dạng của tổ chức đồ bị ảnh hưởng lớn bởi cách phân nhóm dữ liệu (mặc định do phần mềm quyết định).
Biểu đồ hộp (boxplot)
Bao gồm hình hộp chứa 50% giữa của dữ liệu, vạch tương ứng với trung vị, và phần râu tương ứng với các giá trị ít gặp (thường trong khoảng 1.5 lần khoảng tứ phân vị tính từ phân vị thứ 1 hoặc thứ 3).
Biểu đồ dạng RDI
Biểu đồ thể hiện cả dữ liệu thô (Raw data), các chỉ số mô tả (Descriptive statistics) và thông số suy diễn (Inferential statistics).
Giúp thể hiện đầy đủ hơn thông tin trong dữ liệu.
Một số nguyên tắc sử dụng biểu đồ
Biểu đồ có giá trị trong mọi khâu của phân tích thống kê:
- Kiểm tra và thăm dò dữ liệu
- Tìm lỗi, dữ liệu bất thường
- Khám phá đặc tính, xây dựng giả thuyết
- Lựa chọn phương pháp thống kê
- Diễn giải kết quả phân tích
- Kiểm chứng phân tích
- Trình bày kết quả
Biểu đồ thường ít được sử dụng hơn bảng. Việc tạo biểu đồ mất nhiều thời gian và công sức hơn bảng, do cần phải trải qua giai đoạn mã hoá dữ liệu dưới dạng các thuộc tính trực quan. Tuy nhiên, hiệu quả đem lại từ việc sử dụng biểu đồ có thể cao hơn bảng, do biểu đồ giúp người đọc nhận diện nhanh hơn về cấu trúc và so sánh.
Biểu đồ có các thành phần chính gồm:
- Tên: tên biểu đồ, tên trục
- Vật thể hình học: điểm, đường, cột
- Thuộc tính thẩm mỹ: màu, kích thước, hình dạng, vị trí
- Hệ trục toạ độ
Một số nguyên tắc cần lưu ý khi trình bày bằng biểu đồ:
- Cần rõ ràng, chính xác, hiệu quả
- Lựa chọn cách mã hoá phù hợp tính chất của dữ liệu
- Lưu ý sự khác biệt về hiệu quả sử dụng của các cách mã hoá khác nhau
2.5 Tóm tắt
- Sinh thống kê bao gồm hai lĩnh vực chính: thống kê mô tả và thống kê suy diễn.
- Thống kê mô tả:
- Mục tiêu: mô tả tóm tắt dữ liệu có trong mẫu mẫu nghiên cứu
- Công cụ: chỉ số và biểu đồ
- Lựa chọn chỉ số và/hoặc biểu đồ phù hợp với mục tiêu, loại biến số.
3 Thống kê suy diễn
3.1 Một số khái niệm
Dân số đích (target population): là dân số về lý thuyết với cỡ mẫu không giới hạn, bao gồm cả đối tượng nghiên cứu trong tương lai và ở các địa điểm khác. Được thể hiện qua tiêu chuẩn chọn vào/loại ra trong đề cương nghiên cứu. Khả năng khái quát hoá phụ thuộc vào cách lấy mẫu từ dân số đích.
Thông số (parameter): là các đặc tính của dân số đích mà nhà nghiên cứu quan tâm. Các đặc tính này có giá trị nhất định, nhưng không thể biết được giá trị này vì không thể khảo sát trên toàn bộ dân số đích.
Mẫu (sample): là một phần của dân số đích được chọn ra để khảo sát trong nghiên cứu.
Chỉ số thống kê (statistics): là các đặc tính của mẫu mà nhà nghiên cứu đo lường được. Nhà nghiên cứu biết chỉ số thống kê trong mẫu nghiên cứu; tuy nhiên, khi lấy mẫu mới thì chỉ số thống kê này sẽ thay đổi chứ không hằng định như giá trị thông số của dân số (biến thiên do chọn mẫu, sampling variability).
Trong thống kê suy diễn, chúng ta sẽ tìm cách ước lượng giá trị của các thông số trong dân số dựa vào các chỉ số thống kê từ mẫu nghiên cứu.
3.2 Biến thiên do chọn mẫu (sampling variability)
Kể cả khi mẫu đại diện cho dân số, do yếu tố ngẫu nhiên, chỉ số thống kê từ mẫu vẫn có thể khác với thông số của dân số, và khác với chỉ số thống kê được ước tính từ các mẫu khác được lấy với cùng phương pháp và kích thước.
Khi lấy nhiều mẫu khác nhau từ cùng một dân số, sự biến thiên của chỉ số thống kê trong mẫu tuân theo quy luật: phân phối lấy mẫu.
3.3 Phân phối lấy mẫu (sampling distribution)
Phân phối lấy mẫu thể hiện sự biến thiên của chỉ số thống kê trong mẫu khi lấy mẫu lặp lại nhiều lần. Vì trong thực tế, chúng ta không lấy mẫu nhiều lần, do đó phân phối lấy mẫu là một phân phối lý thuyết. Khi kích thước mẫu càng lớn, phân phối lấy mẫu của chỉ số thống kê sẽ tiệm cận phân phối bình thường (normal distribution).
Dựa vào phân phối lấy mẫu, chúng ta có thể lượng giá được sự sai lệch của ước lượng từ mẫu so với thông số của dân số. Độ lệch chuẩn của chỉ số thống kê trong phân phối lấy mẫu được gọi là sai số chuẩn (standard error). Sai số chuẩn giúp lượng giá độ chính xác khi dùng chỉ số thống kê từ mẫu để ước lượng cho thông số của dân số. Sai số chuẩn càng lớn thì ước lượng càng kém chính xác và ngược lại.
Sai số chuẩn phụ thuộc vào hai yếu tố: sự biến thiên của biến số trong dân số (thể hiện qua độ lệch chuẩn của biến số) và kích thước mẫu. Do đó, sai số chuẩn có thể được ước tính dựa vào độ lệch chuẩn của biến số trong mẫu và cỡ mẫu:
\[SE = \dfrac{SD}{\sqrt{n}}\]
Lưu ý là sai số chuẩn của chỉ số thống kê từ biến số khác với độ lệch chuẩn của biến số:
- Độ lệch chuẩn
- Thể hiện sự biến thiên của biến số trong mẫu
- Dùng trong thống kê mô tả để mô tả sự phân tán của dữ liệu
- Sai số chuẩn
- Thể hiện độ chính xác của việc sử dụng chỉ số thống kê để ước lượng thông số trong dân số
- Dùng trong thống kê diễn dịch để đo lường độ chính xác của ước lượng.
3.4 Khoảng tin cậy
Dựa vào phân phối lấy mẫu, chúng ta có thể đưa ra ước lượng khoảng cho giá trị của thông số trong dân số.
Thông thường, khoảng tin cậy \(95%\) của một thông số trong dân số được tính bằng công thức:
\[\text{KTC 95%} = (\text{Ước lượng điểm} - 1.96 \times SE, \text{Ước lượng điểm} + 1.96 \times SE)\] Trong đó “Ước lượng điểm” là giá trị của chỉ số thống kê tính từ mẫu, và “SE” là sai số chuẩn khi sử dụng chỉ số thống kê này để ước tính cho thông số trong dân số.
Một vài tính chất của khoảng tin cậy
- Khoảng tin cậy thể hiện mức độ không chắc chắn về mặt thống kê khi ước lượng bằng chỉ số thống kê từ mẫu.
- Khoảng tin cậy là ngẫu nhiên, thông số của dân số là hằng định (nhưng không biết)
- Độ rộng của khoảng tin cậy phụ thuộc vào hai yếu tố: mức độ tin cậy (\(90%\), \(95%\), …) và sai số chuẩn.
Cách phiên giải hợp lý của khoảng tin cậy 95% (A, B) là với kết quả của nghiên cứu này, chúng ta có thể tin tưởng ở mức độ 95% rằng thông số của dân số đích là một trong các giá trị nằm trong khoảng (A, B). Lưu ý rằng, khi lặp đi lặp lại nghiên cứu 100 lần (với cùng cỡ mẫu), sẽ có 100 khoảng tin cậy 95% khác nhau và chúng ta mong đợi rằng có 95 khoảng tin cậy trong số đó sẽ chứa giá trị thông số của dân số đích.
3.5 Kiểm định giả thuyết thống kê
Ngoài việc ước lượng, chúng ta có thể suy diễn về thông số trong dân số bằng cách kiểm định (bác bỏ hoặc chấp nhận) một giả thuyết về thông số trong dân số.
Thông thường, chúng ta sẽ đưa ra giả thuyết muốn bác bỏ (null hypothesis, \(H_0\)) rồi thu thập dữ liệu và tìm cách bác bỏ giả thuyết đó.
Việc bác bỏ hay chấp nhận giả thuyết \(H_0\) sẽ đưa đến việc mắc phải sai lầm loại 1 hoặc sai lầm loại 2. Sai lầm loại 1 là sai lầm mắc phải khi bác bỏ \(H_0\) mặc dù giả thuyết này đúng, đây cũng chính là ngưỡng có ý nghĩa thống kê mà chúng ta hay lựa chọn. Sai lầm loại 2 là sai lầm mắc phải khi chấp nhận \(H_0\) mặc dù giả thuyết này sai, phần bù của sai lầm loại 2 là lực của nghiên cứu (power), hay khả năng bác bỏ được \(H_0\) khi giả thuyết này sai.
Các bước kiểm định giả thuyết
Tất cả các phép kiểm định giả thuyết đều theo các bước chung:
- Xác định giả thuyết thống kê (giả thuyết không, \(H_0\), nhằm bác bỏ)
- Thu thập dữ liệu
- Tính chỉ số thống kê của phép kiểm định
- Tính trị số p
- So sánh trị số p với một ngưỡng có ý nghĩa thống kê đã chọn trước và kết luận
Trị số p
Trị số p có thể được diễn giải nôm na là xác suất để quan sát được dữ liệu như đang có nếu giả thuyết không \(H_0\) là đúng.
Quyết định dựa vào trị số p:
- So sánh với một ngưỡng ý nghĩa thống kê \(\alpha\) chọn từ trước (thường là 0.05)
- Khi trị số p \(\leq \alpha\): dữ liệu không phù hợp với \(H_0\), có cơ sở để bác bỏ giả thuyết \(H_0\)
- Khi trị số p \(> \alpha\): dữ liệu có thể phù hợp với \(H_0\), chưa đủ cơ sở để bác bỏ giả thuyết không. Có thể do:
- Giả thuyết \(H_0\) đúng
- Khác biệt thực tế giữa các nhóm không đáng kể
- Cỡ mẫu nhỏ
Lựa chọn phép kiểm định thống kê
Phụ thuộc vào:
- Loại biến số phụ thuộc
- Số lượng phân nhóm
- Các nhóm độc lập/không độc lập
Các phép kiểm định thống kê thường gặp
3.6 Tương quan (correlation)
Tương quan thể hiện mức độ mà các biến số liên tục thay đổi cùng nhau. Mức độ này được thể hiện qua hệ số tương quan (correlation coefficient).
Tính chất của hệ số tương quan:
- Chỉ số có giá trị từ -1 đến 1
- Đo lường mức độ hai biến số liên tục có mối quan hệ tuyến tính với nhau
4 Mô hình thống kê (Statistical models)
4.1 Mô hình hồi quy (regression models)
Phương pháp phân tích, mô hình (phương trình) toán học, mô tả biến số phụ thuộc (y) theo một hoặc một vài biến số độc lập (x)
Mối liên hệ giữa biến số phụ thuộc và biến số độc lập được thể hiện qua hệ số hồi quy (regression coefficient)
Mô hình hồi quy giúp:
- Đánh giá liệu biến số độc lập và biến số phụ thuộc có liên quan với nhau hay không (so sánh hệ số hồi quy với 0)
- Đánh giá mức độ liên quan giữa biến số độc lập và biến số phụ thuộc
- Dự đoán giá trị của biến số phụ thuộc khi biết giá trị của biến số độc lập.
4.2 Hồi quy tuyến tính đơn biến (univariable regression) vs. hồi quy tuyến tính đa biến (multivariable regression)
- Hồi quy đơn biến
\[Y = b_0 + b_1 \times X\]
Hệ số \(b_1\) thể hiện sự thay đổi của Y khi X tăng lên một đơn vị
- Hồi quy đa biến
\[Y = b_0 + b_1 \times X_1 + b_2 \times X_2\]
Hệ số \(b_1\) thể hiện sự thay đổi của Y khi \(X_1\) tăng lên một đơn vị và \(X_2\) giữ nguyên.
4.3 Lựa chọn mô hình hồi quy
- Phụ thuộc vào biến số phụ thuộc:
- Biến số liên tục: hồi quy tuyến tính (linear regression)
- Biến số nhị giá: Hồi quy logistic (logistic regression)
- Biến số dạng số đếm: Hồi quy Poisson (Poisson regression)
- Biến số dạng thời gian sống còn: Hồi quy Cox (Cox regression)
- Lựa chọn biến số cho mô hình hồi quy đa biến
- Bao gồm: biến số phụ thuộc (là kết cuộc quan tâm), biến số độc lập là các yếu tố độc lập quan tâm (từ kiến thức lâm sàng, y văn) và các yếu tố gây nhiễu (từ kiến thức lâm sàng, y văn)
- Số lượng biến số độc lập bị giới hạn bởi cỡ mẫu và biến số phụ thuộc
4.4 Mô hình hồi quy vs. kiểm định thống kê
- Kiểm định thống kê
- Bác bỏ hoặc chấp nhận giả thuyết thống kê (thông qua trị số p)
- Chỉ khảo sát được hai biến số, không cho phép hiệu chỉnh cho các yếu tố gây nhiễu.
- Mô hình thống kê
- Bác bỏ hoặc chấp nhận giả thuyết thống kê (thông qua trị số p khi kiểm định hệ số hồi quy)
- Đánh giá được độ lớn của mối liên hệ (qua hệ số hồi quy và khoảng tin cậy của hệ số hồi quy)
- Khảo sát được nhiều biến số (hồi quy đa biến), cho phép hiệu chỉnh cho các yếu tố gây nhiễu
- Nhiều thông tin hơn nhưng cũng nhiều giả định hơn (phương trình hồi quy phải phù hợp, phân phối của biến số phụ thuộc phải phù hợp)
5 Các bước phân tích dữ liệu
Quá trình phân tích dữ liệu không phải là một quá trình duy nhất mà thực tế gồm nhiều giai đoạn khác nhau (Hình). Có thể tạm chi quá trình phân tích dữ liệu thành 2 giai đoạn chính:
- Giai đoạn ban đầu: nhằm làm quen với bộ dữ liệu và chuẩn bị bộ dữ liệu sẵn sàng cho phân tích chính thức. Quá trình này có thể được chia thành hai giai đoạn nhỏ hơn:
- Kiểm tra và làm sạch dữ liệu: mục tiêu là tạo ra bộ dữ liệu với số sai sót tối thiểu
- Chuẩn bị dữ liệu cho phân tích thực sự: tạo ra bộ dữ liệu với định dạng phù hợp cho phân tích
- Giai đoạn phân tích thực sự: thực hiện các phân tích theo kế hoạch phân tích có sẵn
Theo ý kiến của nhiều chuyên gia phân tích nhiều kinh nghiệm, thông thường 80% thời gian của quá trình phân tích là dành cho giai đoạn ban đầu3.
5.1 Giai đoạn ban đầu
Kiểm tra và làm sạch dữ liệu
Để kết quả phân tích chính xác và đáng tin cậy, dữ liệu dùng để phân tích cần phải sạch về các lỗi.
Mục tiêu của giai đoạn này là xây dựng bộ dữ liệu sạch (ít lỗi nhất có thể) cho phân tích.
Các dạng lỗi thường gặp là:
- Dữ liệu bị thiếu/mất
- Dữ liệu bị lặp lại
- Các giá trị ngoại lai
- Các giá trị không tương hợp
Để tìm ra các lỗi này, chúng ta có thể dựa vào các công cụ của thống kê mô tả (bằng số tóm tắt, biểu đồ) để mô tả từng biến số và/hoặc một nhóm biến số cùng nhau. Các giá trị ngoài mong đợi (phân nhóm khác với định nghĩa biến số, giá trị ngoại lai) thường dễ được phát hiện. Những lỗi mà giá trị vẫn nằm trong khoảng giá trị mong đợi thì khó phát hiện hơn, và chỉ có thể được phát hiện khi kiểm tra ngẫu nhiên một phần trong bộ dữ liệu.
Sau khi tìm được lỗi, chúng ta cần chẩn đoán lỗi và phân loại chúng thành:
- Lỗi thực sự: cần phải sửa hoặc xoá nếu không sửa được.
- Không phải lỗi: giữ nguyên, không chỉnh sửa.
- Không chắc: giữ nguyên, cân nhắc phân tích bổ sung (sensitivity analysis) sau đó.
Để chẩn đoán được lỗi, chúng ta cần dựa vào kiến thức chuyên môn về các biến số, và các bằng chứng khác nhau để chứng minh lỗi.
Đối với các lỗi thực sự thì cần sửa lỗi, hoặc xoá đi nếu không biết được giá trị chính xác. Tuy nhiên, mọi thay đổi trong bộ dữ liệu đều phải được ghi nhận lại, đồng thời cập nhật thay đổi trong bộ dữ liệu gốc.
Chuẩn bị dữ liệu cho phân tích
Để phân tích được hiệu quả (nhanh chóng, chính xác), bộ dữ liệu phân tích không chỉ cần sạch mà còn cần ở định dạng phù hợp cho phân tích.
Mục tiêu của giai đạon này là chuẩn bị bộ dữ liệu phù hợp cho phân tích.
Các thao tác chính trong giai đoạn này bao gồm:
- Tạo thêm các biến số mới
- Tạo thêm các biến số mới dựa trên các biến số sẵn có
- Định dạng lại biến số
- Phân nhóm biến số
- Chuyển dạng dữ liệu cho phù hợp với phân tích
- Kết hợp các bảng dữ liệu với nhau
- Dữ liệu dạng dài hay rộng
5.2 Giai đoạn phân tích thực sự
Sau khi đã có bộ dữ liệu sạch và ở định dạng phù hợp, chúng ta có thể tiến hành giai đoạn phân tích thực sự. Ở giai đoạn này, để việc phân tích được hiệu quả, khách quan và hạn chế nguy cơ các kết quả có được do ngẫu nhiên, nhà phân tích không nên phân tích một cách ngẫu hứng mà cần dựa vào một kế hoạch phân tích đã được soạn sẵn.
Cấu trúc thông thường của một kế hoạch phân tích có thể bao gồm các phần như sau:
- Thông tin cơ bản: người viết, ngày viết, phiên bản
- Mục tiêu của phân tích
- Nguồn dữ liệu, chuẩn bị dữ liệu
- Công cụ phân tích
- Phương pháp phân tích cho từng mục tiêu
- Dân số phân tích
- Các biến số liên quan & định nghĩa
- Phương pháp phân tích: Mô tả/Mô hình/kiểm định
- Các vấn đề khác: dữ liệu bị mất, sensitivity analysis
- Bảng/hình câm, phụ lục
- Tài liệu tham khảo
6 Công cụ phân tích dữ liệu
JASP (Jeffreys’s Amazing Statistics Program) là một phần mềm phân tích thống kê mã nguồn mở, miễn phí, được phát triển và duy trì bởi một nhóm nghiên cứu về tâm lý học tại Đại học Amsterdam (Hà Lan). Phần mềm này dựa trên phần mềm R chạy ẩn sau mỗi lệnh trên tác vụ.
- Website của phần mềm: https://jasp-stats.org/
- Địa chỉ tải phần mềm: https://jasp-stats.org/download/
- Các tài liệu hướng dẫn sử dụng: https://jasp-stats.org/jasp-materials/
Một số video clip trên Youtube hướng dẫn các thao tác cơ bản trên JASP:
- Đọc dữ liệu: https://youtu.be/Q0OF4ATtZ3k
- Mô tả biến số liên tục: https://youtu.be/-5zCz5Qhbnc
- Mô tả biến số phân nhóm: https://youtu.be/NBMAiLL-bVc
- Tính khoảng tin cậy cho một số trung bình hoặc một tỉ lệ: https://youtu.be/RFcD_6cW-Ng
- Kiểm định giả thuyết thống kê so sánh hai tỉ lệ: https://youtu.be/02Wgne4fab0
7 Tài liệu tham khảo